专利摘要:
サイド情報を用いた動画像符号化のためのテクスチャ合成方法は、デコーダ装置によって実行される。上記方法は、高忠実度でシードテクスチャを受信する第1受信ステップと、低忠実度で合成領域の残余部を受信する第2受信ステップと、合成する領域のマーキングを受信する第3受信ステップと、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、を含む。上記デコーダ装置は、記憶媒体に記憶されたプログラムを含みうる。サイド情報を用いた動画像符号化のためのテクスチャ合成方法は、エンコーダ装置によっても実行される。
公开号:JP2011515875A
申请号:JP2010527271
申请日:2009-01-16
公开日:2011-05-19
发明作者:ス イエピン;エー.セガール クリストファー;タエ;オウ ビョン
申请人:シャープ株式会社;
IPC主号:H04N7-26
专利说明:

[0001] 本開示内容は、概して動画像処理に関し、特に、サイド情報を用いた動画像符号化(video coding)のためのテクスチャ合成の方法、装置、プログラム、及び記録媒体に関する。]
背景技術

[0002] 本開示内容は、概して動画像内のテクスチャ、すなわち、ビジュアルテクスチャに関する。ここで使用される“テクスチャ(texture)”という語は、デジタル画像あるいは反復要素からなる連続デジタル画像を意味する。これらの反復要素によって、3次元テクスチャ面の錯覚を創り出すことができる。換言すれば、これらの反復要素によって、視覚に対してテクスチャ面を現出させることができる。]
[0003] 本開示内容は、特に、動画像符号化を行うためのテクスチャ合成の課題に関する。テクスチャ合成の基本的な目的は、オリジナルの画像シーケンスと概念的に同一(または類似)の画像シーケンスを合成することにある。しかしながら、合成されたシーケンスのピクセル値は、オリジナルのシーケンスのピクセル値と大きく異なることが許容される。これは、従来の符号化方法とは相違するものであり、従来の方法では、オリジナルのピクセル値を可能な限り近似させようとしている。]
[0004] テクスチャ合成は、ある程度ランダムな画像シーケンスに対して最も大きな動機付けを与える。例えば、水、草、木々の動きは、テクスチャ合成の対象として好ましい。]
[0005] テクスチャ合成は、デジタル画像編集、3次元コンピュータ・グラフィックス、映画の撮影後の編集段階など数多くの分野で利用されており、画像中の欠損部(holes)を埋め込むとき、大型の非反復性の背景画像を作成するとき、小さなピクチャを拡大するときなどに用いられる。]
課題を解決するための手段

[0006] サイド情報を用いた動画像符号化のためのテクスチャ合成方法が開示されている。上記方法は、デコーダ装置によって実行される。上記方法は、高忠実度でシードテクスチャを受信する第1受信ステップと、低忠実度で合成領域の残余部を受信する第2受信ステップと、合成する領域のマーキングを受信する第3受信ステップと、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、を含む。]
[0007] 上記合成ステップは、上記シードテクスチャ内において少なくとも1つの最適領域を特定する特定ステップと、初期推定値を取得する取得ステップと、を含む。上記取得ステップは、最適領域のピクセル値を現合成領域のピクセル値に複写する複写ステップを含む構成であってよい。上記合成ステップは、上記少なくとも1つの最適領域から画像モデルを導出する導出ステップと、受信したビットストリームから付加的な画像モデルを抽出する抽出ステップと、上記初期推定値と導出した上記画像モデルおよび抽出した上記画像モデルとに基づいて、現合成領域を合成する合成ステップと、を含む構成であってよい。]
[0008] 複数の最適領域が特定される。このとき、マーキングされた上記領域を合成するために、上記複数の最適領域の加重組み合わせが使用されうる構成であってよい。]
[0009] 伝送された上記画像モデルは、量子化パラメータ、量子化されたレベル値、及び予測モードのうち少なくとも1つを含む構成であってよい。]
[0010] 上記現合成領域の合成は、上記受信したビットストリームから抽出される画像モデルと、上記シードテクスチャから抽出される画像モデルとに反復射影することによって実行される構成であってよい。]
[0011] 一例として、上記シードテクスチャから抽出される上記画像モデルは、自己相関であり、反復射影を動作させるための射影演算子は、所望の相関モデルに対する線形マッピングである構成であってよい。]
[0012] 他の例として、上記シードテクスチャから抽出される上記画像モデルは、変換領域におけるスパースネス(sparseness)であり、反復射影を動作させるための射影演算子は、所望のスパースネスに達するための閾値処理である構成であってよい。]
[0013] また、上記方法は、境界部の平滑化を実行するために、パッチ混合および非ブロック化を実行する実行ステップを含む構成であってよい。]
[0014] 導出された上記画像モデルおよび伝送された異なるタイプの複数の画像モデルは、少なくとも、時空間相関関係に基づくモデル、ピクセル輝度値のヒストグラムに基づくモデル、変換係数のヒストグラムに基づくモデル、及び、変換領域における相関関係に基づくモデル、の何れかを含む構成であってよい。]
[0015] マーキングされた上記領域を合成する合成ステップは、上記シードテクスチャ内において少なくとも1つの最適領域を特定する特定ステップと、上記少なくとも1つの最適領域と現合成領域との間の差を示すテクスチャ類似性メトリックを規定する第1規定ステップと、上記サイド情報と上記現合成領域との間の差を示すサイド情報メトリックを規定する第2規定ステップと、上記テクスチャ類似性メトリック及び上記サイド情報メトリックの組み合わせを最小化する最小化ステップと、を含む。]
[0016] ブロック処理が実行されるとともに、ある特定ブロックの合成動作は、(1)近接する、因果関係を有するブロック、及び(2)すべての近接ブロック、の何れかに関する合成結果を認識することにより実行される構成であってよい。他の方法として、マーキングされた上記領域を合成する合成ステップの動作は、マーキングされた上記領域に対する因果テクスチャ合成を実行する実行ステップと、続いて行われる、マーキングされた上記領域を因果関係とは無関係に処理する処理ステップと、を含む構成であってよい。]
[0017] さらに、上記方法は、オーバーラップしないグリッドをサーチするサーチステップ、空間とマルチ解像度との関係を利用してサーチ空間を縮減する縮減ステップ、及び、距離を計算するときに数量を減らした変換係数を使用する使用ステップ、のうち、少なくとも何れか1つのステップを実行することにより計算上の複雑さを軽減する軽減ステップを含む構成であってよい。]
[0018] サイド情報を用いた動画像符号化のためのテクスチャ合成を行うためのデコーダ装置が開示されている。上記デコーダ装置は、プロセッサと、上記プロセッサと電子通信を行うメモリと、上記メモリに格納された命令と、を有し、上記命令は、高忠実度でのシードテクスチャの受信、低忠実度での合成領域の残余部の受信、合成する領域のマーキングの受信、及び、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づく、マーキングされた上記領域の合成、を実行させうる。]
[0019] 上記デコーダ装置は、サイド情報を用いた動画像符号化のためのテクスチャ合成を行うためのプログラムを有する。このプログラムは、例えば光学式ディスク、磁気ディスクなどのコンピュータ読み取り可能な記録媒体に記録されている。]
[0020] 上記プログラムは、高忠実度でシードテクスチャを受信する第1受信ステップと、低忠実度で合成領域の残余部を受信する第2受信ステップと、合成する領域のマーキングを受信する第3受信ステップと、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、を実行させる。]
[0021] エンコーダ装置によって実行される、サイド情報を用いた動画像符号化のためのテクスチャ合成を促進する方法が開示されている。上記方法は、入力動画像の合成領域を特定する特定ステップと、シードテクスチャとしての合成領域部をマーキングするマーキングステップと、デコーダ装置に対して、高忠実度で上記シードテクスチャを伝送する第1伝送ステップと、上記デコーダ装置に対して、低忠実度で上記合成領域部の残余部を伝送する第2伝送ステップと、を含む。]
[0022] 上記目的および他の目的、構成、本発明の効果は、添付の図面とともに、下記の本発明に係る詳細な説明を考慮することにより、より明確に理解される。]
図面の簡単な説明

[0023] 動画像符号化のためのテクスチャ合成を行うシステムの一例を示す図である。
サイド情報を用いた動画像符号化のためのテクスチャ合成を行うシステムの一例を示す図である。
本開示内容に基づくエンコーダ装置によって実行されうる方法の一例を示す図である。
本開示内容に基づくデコーダ装置によって実行されうる方法の一例を示す図である。
図4の方法によりテクスチャデータ領域の合成を実行することが可能な方法を示す図である。
図4の方法によりテクスチャデータ領域の合成を実行することが可能な他の方法を示す図である。
シードテクスチャ(seed texture)内の最適領域の一例を示す図である。
サイド情報メトリック(side information metric)を決定するための方法の一例を示す図である。
本開示内容に基づく、送信されるガイド情報(guide information)の総量を決定するための方法の一例を示す図である。
図9の方法をグラフィック描写した図である。
サーチ空間を軽減するためのマルチ解像度アプローチ(multi-resolution approach)を示す図である。
空間的関係に基づきサーチ空間を制限する例を示す図である。
サイド情報を用いた動画像符号化のためのテクスチャ合成を行うデコーダ装置の一例を示す図である。
サイド情報を用いた動画像符号化のためのテクスチャ合成を促進するエンコーダ装置の一例を示す図である。] 図4 図9
実施例

[0024] テクスチャ合成を行う方法(work)として、主に2つの方法が挙げられる。第1の方法は、パラメータ法である。この方法では、画像シーケンスが複数のパラメータよってモデル化される。例えば、ヒストグラムによってあるモデルが提供される。同様に、ピクセル値の相関によって別のモデルが提供される。十分な数のモデルが与えられることにより、いかなるテクスチャであっても、パラメータ化された制約を満足する一群のピクセル輝度値を発見することで、その“外観と雰囲気(look and feel)”が再生成されうる。その制約は、射影演算子(ハードな制約)、または重み付けされたペナルティー基準(penalty norm)によって表現されうる。これらはそれぞれ、合成された輝度値はパラメータ化された制約を充足しなければならない、または、輝度値はパラメータ化されたモデルに近似すべきである、ということと同義である。]
[0025] 第2の方法は、非パラメータ法である。ここでは、合成されたテクスチャは、経験的に(priori)知られる1つのテクスチャ例から派生する。そのテクスチャ合成処理では、上記のテクスチャ例またはシードテクスチャを調べ、かつ、新しいテクスチャ領域に対してシードテクスチャ内の輝度値を複写することによって、付加的なテクスチャ・データを生成する。複写される輝度値を発見することは、ここでは差別化要因である。しかしながら、共通する方法は、合成される領域と隣り合うピクセル値に最も適合する画像領域に対してシードテクスチャを探索(サーチ)することである。その後、その最も適合する画像に隣り合うピクセル値が複写される。その他の方法は、複数の適合画像を発見する、あるいは、隣接画像に対して異なる定義を利用する、といったものである。]
[0026] テクスチャ合成を動画像の符号化に適用した場合、テクスチャ合成の上記課題は改変する。以下、その相違点を述べる。最初に、動画像の符号化では、シードテクスチャまたはモデル情報は、劣化することなくシンセサイザに伝送されることがない。加えて、シードテクスチャまたはモデル情報が大量に伝送されることにより、テクスチャシンセサイザの上記値は低下する(動画像の符号化環境には、あるテクスチャが明確に符号化されるというオプションがある)。さらに、合成処理の複雑さは、その取り扱いが容易になるべきである(例えば、その複雑さは、他の動画像の復号処理の複雑さと同程度に収まるべきである)。また、グラフィック用途でテクスチャ合成される場合と異なり、動画像符号化システムは、テクスチャ内のオリジナル輝度値を認識している。最後に、テクスチャ合成は、フレーム間予測、フレーム内予測、残余符号化などの他の符号化ツールとともに運用されるべきである。そして、全体設計によって、純然たる合成と従来の動画像符号化との調整可能な組み合わせが可能となる。]
[0027] 上記の相違点を前提として、本開示内容は、現下の最先端動画像符号化システムを利用したテクスチャ合成システムを考察している(その例として、国際電気通信連合(ITU:the International Telecommunication Union)、および、MPEG(Moving Picture Experts Group)標準ファミリが含まれる)。本開示内容に基づけば、テクスチャシンセサイザにサイド情報を伝送するためにビットストリームが使用される。このサイド情報の構成要素は、上記画像シーケンスの低品質バージョンに直接対応するように構成されている。そして、上記テクスチャ合成の目的は、その低品質バージョンの範囲内でテクスチャのレンダリング(rendering)を改善することにある。]
[0028] ここで、図1を参照して説明する。図1は、動画像符号化のためのテクスチャ合成を行うシステム100の一例を示す図である。] 図1
[0029] 入力動画像102がエンコーダ104に供給され、エンコーダ104は、入力動画像102をエンコード(符号化)する。次に、エンコードされた動画像データは、通信チャンネル106を通ってデコーダ108に伝送される。デコーダ108は、受信した動画像データをデコード(復号)し、それにより復号された動画像データ110を取得する。]
[0030] 復号された動画像データ110には、少なくとも幾つかのテクスチャデータ114が含まれる。そのテクスチャデータの一部はシードテクスチャ114aであり、そのテクスチャデータの残りの部分がターゲットテクスチャ114bである。シードテクスチャ114aは、エンコードされ、高品質で伝送される。それゆえ、シードテクスチャ114aは、復号された動画像データ110内の非テクスチャデータと同じようにデコードされる。ターゲットテクスチャ114bは、デコーダ側で合成されるテクスチャデータ110の一部である。]
[0031] 復号された動画像データ110は、テクスチャシンセサイザ116に供給される。テクスチャシンセサイザ116は、ターゲットテクスチャ114bを合成する。それゆえ、出力動画像118内のテクスチャデータ114は、デコード領域120a(シードテクスチャに対応)と合成領域120b(ターゲットテクスチャに対応)とを含む。]
[0032] 次に、図2を参照して説明する。図2は、サイド情報222を用いた動画像符号化のためのテクスチャ合成を行うシステム200の一例を示す。] 図2
[0033] システム200は、エンコーダ204とデコーダ208とを備える。上記エンコーダを備える装置をエンコーダ装置224とする。同様に、上記デコーダを備える装置をデコーダ装置226とする。]
[0034] 入力動画像202は、エンコーダ204およびテクスチャアナライザ228の両方に供給される。エンコーダ204は入力動画像202をエンコードし、そのエンコードされた動画像は、データ・ビットストリーム230としてデコーダ208に伝送される。]
[0035] テクスチャアナライザ228は、入力動画像202内のテクスチャデータを特定する。テクスチャデータの大部分はエンコードされていない。むしろ、上記テクスチャデータ(つまり、シードテクスチャ)のごく僅かの部分が、エンコードされ、伝送される。そして、テクスチャデータ232の残りが、テクスチャシンセサイザ216により合成される。テクスチャアナライザ228は、サイド情報222を決定するために入力動画像202を調べる。そのサイド情報222は、テクスチャシンセサイザ216に伝送される。サイド情報222は、テクスチャデータ232の合成を促す。テクスチャデータ232は、合成されるテクスチャデータの低品質バージョンを含んでもよい。]
[0036] デコーダ208は、受信したビットストリーム230を復号し、復号された動画像210を出力する。テクスチャシンセサイザ216は、合成テクスチャデータ232を生成する。復号された動画像210および合成テクスチャデータ232は、出力動画像118を取得するために互いに足し合わされる。]
[0037] 次に、図3を参照して説明する。図3は、本開示内容に基づくエンコーダ装置によって実行されうる方法300の一例を示す。] 図3
[0038] 方法300は、テクスチャデータを有する入力動画像に対して実行される。方法300は、上記入力動画像の合成する領域を1つ以上特定する特定ステップ302を含む。すなわち、方法300は、テクスチャデータを含む入力動画像の領域を特定する特定ステップを含む。これらの領域を、ここでは合成領域と称する。]
[0039] 合成領域の1つ以上の部分が、シードテクスチャとしてマーキングされる(304)。シードテクスチャは、上記デコーダに対して高忠実度で伝送される(306)。合成領域の残りの部分(残余部)は、上記デコーダに対して低忠実度で伝送される(308)。]
[0040] 次に、図4を参照して説明する。図4は、本開示内容に基づくデコーダ装置によって実行されうる方法400の一例を示す。] 図4
[0041] 方法400は、高忠実度でシードテクスチャを受信する受信ステップ402を含む。また、方法400は、低忠実度で合成領域の残余部を受信する受信ステップ404を含む。また、方法400は、合成される領域のマーキングを受信する受信ステップ406を含む。その後、これらの領域は、受信された高忠実度のシードテクスチャに基づいて、および、受信された合成領域の低忠実度部に基づいて、合成される(408)。]
[0042] 次に、図5を参照して説明する。図5は、図4の方法によりテクスチャデータの領域を合成する1つの実行可能な方法を示す。] 図4 図5
[0043] 図5に示す方法500は、合成されるデータ(つまり、ブロック)の或る特定領域に対して実行される方法を示す。この領域を現合成領域(current synthesized region)と称する。図5に示される方法は、合成されるデータの各領域に対して繰り返し行われる。例えば、テクスチャ合成は、ブロックごとに行われ、図示される方法が各ブロックに対して実行される。] 図5
[0044] 方法500は、現合成領域における低忠実度バージョン(low-fidelity version)に最も適合する、シードテクスチャ内の領域(すなわち、合成される領域の低忠実度バージョン)を特定する特定ステップ502を含む。シードテクスチャ内において特定された領域を、最適領域(the best matching region)と称する。]
[0045] ある特定の具体化されるケースとして、抽出されたピクセルとシードデータ内の総ての取り得る位置との間で平方誤差が計算される。そして、最小誤差となる位置が最適位置として特定される。二つ目の具体化されるケースとして、平方誤差が計算される。しかしながら、閾値よりも小さい平方誤差となる位置が最初に特定される。その後、その特定された位置からランダムに最適位置が選択される。]
[0046] 最適領域からのピクセル値は、現合成領域に複写(コピー)される(504)。これにより、現合成領域に対するピクセル値の初期推定値(initial estimation)が与えられる。]
[0047] 画像モデルは、最適領域から取得される(506)。本開示内容では、モデルとして時空間的相関関係(spatio-temporal correlation)が用いられる特別なケースを検討する。しかしながら、他のモデルを用いてもよい。例えば、ピクセル輝度のヒストグラム、変換係数のヒストグラム、変換領域における相関関係などである。]
[0048] また、画像モデリングは、シードテクスチャからの複数のパッチ(multiple patch)に基づいてよい。複数のパッチは、シードテクスチャをサーチするときにN個の最適候補を保持することにより得られる。そして、複数のパッチを用いることにより、パッチの外観(隣り合うピクセルが条件とされる)のバリエーションを探索することができる。実際のモデリングでは、複数のパッチは、モデル評価における単なる付加的なサンプルとして用いられる。あるいは、その代わりに、複数のパッチは、統計的モデリングの付加的な方法(dimension)ともなりうる。後者の場合、(i番目のパッチから抽出された)各モデルのパラメータCM(i)は、すべての有力な画像モデルの空間内における一例として扱われうる。そして、上記モデルのパラメータ空間における複数の上記例が利用されることにより、より柔軟性の高い統計的画像モデルが提供される。画像モデリングにおいて複数のパッチ情報を探索する具体的な例を後述するが、そこでは、パッチ相関の空間において主成分分析が用いられる。]
[0049] また、方法500は、伝送されたビットストリームから画像モデルを抽出する抽出ステップ508を含みうる。例えば、量子化パラメータ、量子化されたレベル値、及び、オプションとして予測モードが、伝送されたビットストリームから抽出される(508)。すべての情報が、最先端の動画像符号化システム(ITU、及びMPEG標準ファミリなど)の手法を用いて伝送される。次に、受信されたデータは、再構成された画像フレームを生成するために使用され、これにより、ビットストリーム内の情報に加え、再構成されたピクセル値が得られる。]
[0050] 次に、現合成領域が、初期予測され、導出され、抽出された画像モデルに基づいて合成される(510)。具体的には、必要とされる画像領域が、合成されたパッチに比較的“近い”、しかしながら、導出・抽出された画像モデルを満足する一対のピクセル値を発見することにより合成されうる。この検討においては、画像モデルは2項制約(binary constraint)であると想定される。これは、合成結果が画像モデルを充足するか、あるいは充足しないかを意味する(部分的に充足ということはない)。このことは、以下の式で表現される。]
[0051] ここで、各変数はそれぞれ次の意味を表す。なお、]
[0052] と表現することもある。
p’:合成結果
p’’:シードテクスチャと局部隣接部との間の適合アルゴリズムの結果として選択された輝度値
Corr():相関pを演算する関数
CM:シードテクスチャから抽出された相関関係のモデル
Q[]:量子化演算子
T:変換行列
bR:再構成された画像フレーム
q:量子化パラメータ
z:ゼロベクトル
合成結果P’を見出すために、繰り返し解を検討する。]
[0053] ここで、PTおよびPCはそれぞれ、ビットストリームにおけるサイド情報を実行する射影演算子、およびシードデータから生成される画像モデルである。aは、アルゴリズムの収束を制御するパラメータである。kは、繰り返し識別子である。処理は、以下の条件となったときに終了する。]
[0054] ここで、Tは0に近い閾値である。]
[0055] 〔変換係数のための射影制約(Projection constraint)〕
サイド情報制約PTは、合成テクスチャを制限するためにビットストリーム内の情報を利用する。ここで、エンコーダは、デコーダに対して、オリジナルの画像シーケンスの低品質バージョン(low-quality version)を伝送し、デコーダは、この低品質バージョンを合成処理において用いるものとする。この低品質バージョンは、以下の式(4)のように、ブロックベースで表現される。]
[0056] ここで、bRは、現ブロックに対して再構成された輝度値を意味する。bPredは、現ブロックに対して予測された輝度値を意味する。T−1は、逆変換処理である。Q−1は、逆量子化処理である。cは、現ブロックに対してビットストリーム中において伝送された係数を意味する。Q−1という用語は、厳密に言えばQの逆数ではなく、逆量子化法として知られる処理を意味する。]
[0057] そして、その目的は、テクスチャ合成するための解空間を制限することにあり、これにより、同じbRにマッピングされる信号のみを包含することができる。(言い換えると、これは、エンコーダに供給されるあらゆる有効なテクスチャは、ビットストリームにおいて表現されるのと同じbRに量子化/再構成されるべきである、という考えである)。上記制約は、次のように表される。]
[0058] ここで、]
[0059] である。]
[0060] 上式において、Xcは、補正ベクトル(correction vector)である。Xciは、Xcのi番目成分である。Ti(x−bR)は、T(x−bR)のi番目成分である。PT[PT[x]]は、PT[x]に等しい。]
[0061] 〔相関モデルのための射影制約〕
信号モデル制約(signal model constraint)Pcは、合成結果を制限するためにシードテクスチャからの情報を利用する。ここで、合成アルゴリズムによって、合成される現ブロックに対応するシードテクスチャ内の領域が決定されるものとする。本検討のその他の点に関しては、この位置は、シードテクスチャ上の空間位置および時間位置を意味する三重項(x、y、t)によって決定されるものとする。]
[0062] 上記制約を適用するために、シード内の隣接ピクセル間の関係性を見出すことから始める。これは、次式を解くことにより得られる。]
[0063] ここで、Oは、シードテクスチャのピクセル値を包含するベクトルである。Nは、シードテクスチャ値の近傍(neighborhood)を包含する行列である。mcは、上記近傍に与えられた観測結果(observation)に対する(l2に関して)最適な線形予測量である。O及びNの内容を説明するために、次のシナリオを検討する。ここで、シードテクスチャ内のX、Y、Zのサイズのブロックに対する線形予測量を評価しようとしているものと仮定する。なお、上記ブロックには、A、B、Cのサイズの近傍ブロックがあるものとする。次に、以下の擬似コードによって行列を構築する。
z=0
for( i=x; ifor (j=y; jfor (k=t; k{
o(z) = Seed(i,j,k)
l=0;
for( a=-A/2; afor( b=-B/2; bfor( c=0; c{
if( a && b && c )
{
N(l,z) = Seed(i+a,j+b,k-c);
l++;
}
}
z++;
}
次に、現在の合成結果に対して同様の処理を繰り返しうる。これは、Pc[x]について、xにおける位置に対する近傍を演算できるということである。これはNxとして表され、以下の式(8)が得られる。]
[0064] ここで、mxは、現合成結果に対する最適線形予測量を表す。]
[0065] 次に、式(9)におけるmcと同じ線形予測量を有するようにxを更新する。]
[0066] しかしながら、実際に適用する際には、多くの場合、近傍の構築によって上記予測に対する直接的な解決を得ることはできない。これは、上式によって総てのピクセル値が同時に更新され、そして、その更新より前のxに対する値に基づいて更新が行われるという事実による。潜在的により優れた解決をもたらすのは、式(10)の反復式を用いることである。]
[0067] ここで、kは逐次代入される。]
[0068] そして、上記制約は以下の式で表される。]
[0069] ここで、βは、収束を制御するスカラである。また、それぞれのタイムステップkにおいてxの一部のみを更新することが有効である。]
[0070] 相関モデルを満足する他の方法としては、周波数領域法を利用することである。ここで、合成されるブロックに対して、自己相関行列(auto correlation matrix)Cを演算する。また、デコーダによって利用可能な情報から生成される、好ましい自己相関モデルCDを仮定する。そして、HC=CDとなる行列Hについて解く。ここで、Hは、合成される上記ブロックを上記好ましい相関モデルにマッピングするために必要なフィルターを表す。]
[0071] 次に、所望のHにより表されるフィルターfが見出される。そのフィルターを見出す1つの方法として、上記周波数領域においてHを表現する。そして、その周波数領域値に対して絶対値処理および平方根処理を当てはめる。最後に、フィルターf値を決定するために逆フーリエ変換の計算を行う。同じ振幅特性を有するfを算出する方法は複数存在しうる。f値を選択する他の方法は、本開示内容にしたがって利用されうる。その方法に係らず、合成されるブロックは、fのフィルター値によってフィルタリングされる。]
[0072] 上記アルゴリズムを実現するいくつかの方法において、合成されるブロックの自己相関はフィルタリング後に再計算される。上記ブロックが所望の自己相関を満足しないときは、上記処理が繰り返される。この処理は、モデルが充足されるまで続けられる。]
[0073] 〔スパースネス制約(Sparseness Constraints)〕
また、統計的画像モデルは、スパースネス仮定(sparseness assumption)に基づきうる。粗く言えば、テクスチャ画像に対するスパースネス仮定は、ごく少数の“初期テクスチャ(texture primitives)”がアクティブであることを意味する。この動作の目的のため、離散コサイン交換(DCT)を利用したブロック化およびウェーブレット変換などの局在基底(local basis)を用いた線形直交変換が使用される。そして、変換領域におけるスパースネス表現により、およそM個のうちN個の変換係数が微小振幅を有するという上記制約が与えられる。その後、インデクス集合I(i)によって、N個の係数のうち、どの係数が小さいかが特定される。あるいは、さらに、そのスパースネス制約を、変換係数振幅の分布を組み入れたヒストグラム不変性制約(histogram invariant constraints)に拡張することができる。]
[0074] 対応する予測アルゴリズムは、次のように映るかもしれない。最初に、変換領域の閾値処理を行うことにより、ヒストグラムH*がシードパッチから得られる。次に、現在の信号予測H(T(xk))が、周知のヒストグラム平坦化技術を用いることによりH*に適合される。この処理は、H*(T(xk) )として表現される。付加的な平滑化が、シフト化されたDCTなどのオーバーコンプリート変換を適用することにより行われる。T1〜Tpが異なるシフトによるDCT変換を意味するものと仮定して、単純な平均化あるいは重み付けによる平均化を用いることにより、T1-1(H*(T1(xk)))〜 Tp-1(H*(Tp(xk)))を組み合わせることができる。]
[0075] もちろん、スパースネス制約は、パッチの自己相関などの他のモデルとは別に、予測処理における追加的なモデルとして用いうる。]
[0076] 〔境界部の検討〕
気になる境界部での歪は、ブロックごとにテクスチャ合成が行われることにより生じる。この不連続性は、2つの種類のブロック境界上、つまり、サイド情報制約を実行するときの、パッチ境界上および変換ブロック境界上において発生する。]
[0077] パッチ境界について、ここでは、パッチは、シードテクスチャをサーチするための単位である。大抵の場合、シードテクスチャをサーチするうえで、隣り合う領域が完全に適合することはないため、パッチ結果において不連続性が生じる。]
[0078] サイド情報制約を実行するときの変換ブロック境界について、サイド情報はオーバーラップしないブロックにおいて特定されるため、個々のブロックに対してサイド情報制約を実行すると、ブロック歪が不可避的に発生する。]
[0079] 最初のタイプの不連続性を補正するために、オーバーラップするパッチを混合する様々な方法が提案されている。動画像符号化の設計においては、デブロッキングフィルターが、ブロック符号化技術の使用時にブロック間に形成されるエッジを平滑化することで見栄えと予測性能とを改善する。そのような既存方法の1つの問題は、最終的な結果が、サイド情報制約あるいは想定される画像モデルの何れかを満足する保証がないという点にある。そのため、テクスチャ合成の設計において、境界部の平滑化制約(smoothness constraint)を不可欠な部分として形成することが望ましく、それにより、不連続性を平滑化するための後処理工程が必要でなくなる。]
[0080] 境界部の歪に対処する1つの方法は、予測シーケンスにおいて境界部での平滑化の実行ステップを加えることである:PS[PC[PT[x]]]。ここで、PS[]ステップは、パッチ混合およびデブロッキング処理を実行することにより、2つのタイプのブロック境界を処理する。反復射影を用いることにより、シンセサイザ全体で、境界部での平滑化を含む総ての制約を満足する解決法を発見しようとしている。]
[0081] 付加的な置換(permutation)の検討および上記アルゴリズムの改善については後ほど説明する。]
[0082] 〔クリッピングのための射影制約(Projection Constraint for Clipping)〕
信号モデル制約PCは、合成結果を制限するためにシードテクスチャからの情報を利用する。ここで、シードテクスチャのための付加的なモデルを紹介する。つまり、テクスチャのダイナミックレンジが強化される。1つの例では、まずシードテクスチャ内の最大・最小輝度値を測定する。それから、合成結果が、このレンジを超過しないように制約される。これは、合成結果中のあらゆる輝度値が最大値あるいは最小値の近い方へマッピングされることにより実行される。]
[0083] 2つ目の例では、シードテクスチャ内の最大・最小輝度値は測定されない。その代わりに、合成結果のビット深度を決定する。この範囲を外れる輝度値は、許容範囲内に属するようにクリッピングされる。とくに、合成結果が8ビット画像であれば、0より小さい値、または255よりも大きい値は認められない。この例では、255よりも大きい値は255に割り当てられる。同様に、0よりも小さい値は0に割り当てられる。]
[0084] 〔モデルパラメータの抽出〕
前述の検討において、シードテクスチャにおけるある特定の位置が最適位置として特定されるものとした。そして、シードテクスチャに対するモデルがこの領域から抽出される。ここで、上記概念を一般化し、シードテクスチャ内における複数の位置が好適な位置として特定される事案を検討する。さらに、適合の“好適度”を信頼度メトリック(信頼度量)として表現する。]
[0085] より一般化されたシナリオにおいて、シードに対する相関モデルは以下のように拡張される。]
[0086] ここで、Wは対角行列を、要素W(k、k)はベクトルOにおける位置kでの信頼度を表す。]
[0087] 〔因果関係〕
次に因果関係について説明する。なお、]
[0088] と表現することもある。]
[0089] 所定のブロックに対してパッチp’’を選択するときには、当該ブロックの空間的な近隣情報および時間的な近隣情報が必要となる。具体的には、パッチp’’が特定され、続いてそのパッチをリファインし(refine)、パッチp’が生成される。そして、次のブロックの近隣ブロックを構築するときにパッチp’を使用する。これにより、それらのブロックに対するp’’を発見する。]
[0090] あいにく、因果処理(causal processing)では、信号モデリング制約を実行する際に妥協を要する。とくに、そのモデルは、因果関係のあるピクセル、及び因果関係のないピクセルの両方の関係を記述しうる(例えば、相関制約は、ピクセル値が平滑化されていることを要求するものであり、それが、現ブロックの因果境界および非因果境界の両方に対して実行されなければならない)。これが真であるとき、前段落に記載した因果法を用いてブロックごとのパッチp’に対する値を最初に発見することが望ましい。これらの計算に続いて、すべての位置におけるパッチp’に対する値は、より広範囲の処理によってリファインされる。この広範囲の処理において、フレーム内のすべてのp’が同時に解かれる。これは、すべてのブロックに対して式(1)を同時に繰り返すことによって実現する。これは、すべてのブロックにおけるパッチpk’に対する値を用いることによってブロックごとのパッチpk+1’が演算されるというものである。]
[0091] 〔信号モデルの情報伝達〕
信号モデルは、シードテクスチャから確実に得られるというものではない。その代わりに、信号モデルはビットストリームで伝送されうる。この伝送は確実に行われ、そこでは、必要とされるモデル情報がエンコーダからデコーダに直接伝送される。あるいは、情報伝達は、エンコーダに由来するモデルがリファインされたものである。2番目のケースでは、テクスチャ合成処理は、依然として、シードテクスチャを検査し、かつモデル情報を抽出する。しかしながら、次に、モデル情報は、ビットストリームにおいて伝送される情報によってリファインされる。]
[0092] 〔非因果処理〕
上記検討の大部分において、テクスチャ合成アルゴリズムは、隣接する通常のブロックに対して因果関係を有するように処理している。これは、シードテクスチャからパッチを選択するための近隣情報が必要とされていたことによる。ただし、アルゴリズムの一般化として、上記方法はまた、因果関係という制限なしに実行されうる。それは、画像フレーム/シーケンスにおける各ブロックに対して、パッチが特定されるということである。さらに、信号モデル及びサイド情報が特定される。次に、テクスチャ合成処理は、画像フレーム/シーケンス中のすべての近接ブロックが同時に合成される。ここで、画像ブロック及び/またはフレーム間の依存性を扱うための反復処理が必要であることに留意する。]
[0093] 非因果処理を具体的に実現するものとして、パッチを特定するために因果的なテクスチャ合成が実行される。次に、画像フレーム(あるいは、シーケンス)が、因果関係に関係なく処理される。]
[0094] 次に、図6を参照して説明する。図6は、図4の方法によりテクスチャデータ領域の合成を実行することが可能な他の方法を示す。] 図4 図6
[0095] 図6の方法600は、合成される特定のデータ領域に対して実行される方法を示すものであり、その領域は、現合成領域(current synthesized region)と称される。図6に示される方法は、合成されるデータ領域ごとに繰り返される。] 図6
[0096] 方法600は、現合成領域の低忠実度バージョンに最も適合するシードテクスチャ内の領域(すなわち、合成される領域の低忠実度バージョン)を特定する特定ステップ602を含む。シードテクスチャ内で特定される上記領域は、最適領域と称される。]
[0097] テクスチャ類似性基準(texture similarity measure)が、最適領域と現合成領域との間で規定される(604)。次に、テクスチャ類似性エネルギーが、反復最適化を用いることにより最小化される(606)。]
[0098] 図6の方法600では、テクスチャ類似性は、合成画像に係る所定ブロックとシードテクスチャ内の最適ブロックとの間の距離として規定される(図7に示されており、後述する)。そして、総テクスチャエネルギーが、これら総てのブロックの歪み値を合算することにより得られる。これらのブロックは、式(13)に示されるように、オーバーラップするような方法で合成テクスチャから抽出される。] 図6 図7
[0099] 下添え文字pは、オーバーラップするグリッドピクセルpの周囲に存在するN×Nブロックを示す。つまり、synpの近隣ブロックは、その周囲に重複する領域を有する。例えば、合成テクスチャがシードテクスチャと同一である場合、テクスチャエネルギーは0である。単に2つのシードテクスチャを適用する場合、そのパッチ境界を含む幾つかのブロックは大きな歪みを引き起こす。]
[0100] 最後に、最適化された出力は、式(13)において最小テクスチャエネルギー値を有する。しかしながら、テクスチャエネルギーを最小化する最適解を見つけることは些細なことではない。1つの方法は、マルチ解像度アプローチに基づく、EMのような反復最適化法を用いることであり、そこでは、テクスチャの初期推定値は、テクスチャエネルギーを減少させるために繰り返し規定される。詳細に説明すると、M−ステップが、上記シードから最適画像ブロックを見つけることにより、固定合成イメージに基づいてテクスチャエネルギーを最小化する。そして、続くE−ステップが、式(14)のシステム方程式を解くことによって、一対の固定シードブロックに基づいてテクスチャエネルギーを最小化する。]
[0101] さらに、マルチ解像度およびマルチスケールのやり方によるテクスチャ合成方法が利用されうる。粗レベル画像のテクスチャが合成され、微細レベル画像における現段階の出力テクスチャが、アップサンプリングされることによりリファインされる。そのようなマルチ解像度アプローチによって、テクスチャ構造全体を保護し、かつ、最適化プロセスが容易に局部最小化に陥ることを防ぎうる。マルチ解像度アプローチと同様に、マルチスケールのやり方による合成も提供される。ここでは、ブロックサイズは大きいものから小さいものと様々に異なる。こういった方法は、構造全体を保持し、同時に細部を合成するという点において有利である。]
[0102] 次に、図7を参照して説明する。図7では、合成テクスチャ714cおよびシードテクスチャ714aが図示されている。上述したように、合成テクスチャデータは、現合成領域720bの低忠実度バージョン(すなわち、合成されるべき領域の低忠実度バージョン)に最も適合する、シードテクスチャ714a内における領域720cを特定する特定ステップを含む。] 図7
[0103] 〔粗スケールバージョン画像(Coarse-Scale Version Images)に基づく動画像テクスチャ合成〕
上述した実例ベースのアプローチに基づいて、上記アルゴリズムを3D動画像分野に拡大する。実際に、そういった拡大は、2D画像ブロックではなく3D立方体の観点により、式(12)において説明されたテクスチャエネルギーを規定することにより簡単に行われる。さらに、上述したように、新しいテクスチャを合成するときには付加情報を考慮すべきである。言い換えると、付加的なガイド情報が、最適立方体をサーチするときに含まれるべきである(“ガイド情報”および“サイド情報”という語は、ここでは交換可能に用いられている)。このことが式(15)に表現されており、Cpは、オーバーラップするグリッドピクセルpの周囲に存在する立方体であり、||synp−seedp||2は、最適領域と現合成領域との差を示すテクスチャ類似性メトリック(テクスチャ類似性量)である。また、関数dは、合成画像と粗スケール画像との差を示すサイド情報メトリック(サイド情報量)を表し、粗スケール画像のタイプにしたがい決定される。]
[0104] 上記の式(14)から最適化された出力を見出したとき、合成テクスチャは、λ値とガイド情報の総量とに強く依存することが明らかである。例えば、λ=0と設定したとき、全体のフレームワークは、いかなるガイド情報も有しない合成された新テクスチャと同じになる。一方、λ値が大きいと、ガイド情報はテクスチャ形状全体に対して決定的な影響を与える。]
[0105] 画像の粗スケールバージョンを決定するために、提案する方法は、標準的なエンコーダ/デコーダを使用し、かつ、粗スケールのガイド情報として再構築された画像を使用する。異なる視点として、低品質動画像(粗スケールターゲット動画像)は、先にデコードされた高品質動画像(シード動画像)に基づいて再合成されるものと解釈される。粗スケールデータを抽出するための現在の標準コーディング・アルゴリズムの選択は、多くの点において有用である。とりわけ、現在のアルゴリズムを、システムの大掛かりな変更を伴うことなく、現標準に容易に組み込むことができる。そして、ガイド情報を生成するために、何ら追加的なモジュールを必要としない。また、量子化パラメータ(QP; quantization parameter)を単に変更することにより、ガイド情報の品質を制御することができる。]
[0106] 粗スケール画像は、現在のコーディング・アルゴリズムによるブロック変換および量子化により得られるため、サイド情報メトリックdは、注意深く決定されなければならない。例えば、特に大きなQP値を使用するときには、単なるユークリッド距離は効果的ではない。その代わりに、射影により、変換領域における最短距離を見つけ、その最短距離を、図8における射影点と現在の点との間の距離であるとする。] 図8
[0107] 〔エリア適応性(Area-Adaptive)のあるガイド情報量〕
現在のフレームワークにおいて、低品質画像は、合成された出力テクスチャの全般的な形状を制御するためのガイド情報とみなされうる。このため、ガイド情報の重要性は局所的に相違する。言い換えると、テクスチャの幾つかの部分は、ガイド情報がなくとも十分に合成されうる。というのも、近接テクスチャもまた、現テクスチャの形状を制御し、その一方で、幾つかの領域は制御できないためである。この意味において、提案されるアルゴリズムは、テクスチャの異なる領域のために異なる量のガイド情報を利用する。]
[0108] 次に、問題は、ガイド情報の総量をどのように決定するか、つまり、エンコーダ側において、異なる領域のためにどのくらいの情報を割り当てるべきか、という点である。そして、エンコーダは、エリア適応性のあるガイド情報を、その付加的なサイド情報とともに送信し、どの領域がどのQP値を使用するかを特定する。ガイド情報の総量はエンコーダ側で決定されるべきであるため、シードテクスチャおよびターゲットテクスチャがともに認識されているという点を指摘しておくことは無駄ではなく、それゆえ、ガイド情報の総量を決定するための反復アルゴリズムを提案する。]
[0109] 図9は、ガイド情報の総量を決定するための方法900の一例を説明する。記載された方法900にしたがって、極めて少量のガイド情報(最大のQP値)から開始する(902)。次に、立方体それぞれについてシードテクスチャから最適立方体が計算(904)される(M-step)。合成テクスチャが、最適立方体の組から演算(906)される(E-step)。続いて、立方体ごとに誤差値が計算され(908)、最大誤差が見出される(910)。そして、付加的なガイド情報が最大誤差の立方体に提供される(912)。ステップ904からステップ912までは、既定のビット量が満たされたときまで、あるいは、もはや明確な改善が得られなくなるまで繰り返される。図9の方法900は、図10に図示されている。] 図10 図9
[0110] 〔サーチアルゴリズムの複雑さの軽減〕
計算上の複雑さを軽減するために、現フレームワークの明確な特性を可能な限り利用する。その特性とは、次の(1)〜(4)である。(1)総てのシード(参照)画像は、固定され、かつ総てのターゲット画像に対して利用可能である。(2)シードデータは、隣接する立方体間における強い時空間相関関係を有する画像(動画像)である。(3)ターゲットブロックのブロック変換は、ブロックベースの符号化/復号により利用可能である。(4)現フレームワークは、マルチ解像度アプローチに基づくものである。上記の特性を最大化するために、複雑さを軽減する方法は、(1)オーバーラップしないグリッドからオーバーラップグリッドへのサーチ、(2)空間とマルチ解像度との関係を利用した空間サーチの軽減、(3)変換領域係数を用いた演算の軽減、により実行される。その詳細は、以下に述べる。]
[0111] 第1に、現アルゴリズムは、オーバーラップグリッド空間において最適立方体をサーチするため、オーバーラップしないグリッド空間のみをサーチするよりも多くの演算を必要とする。この考え方は、仮に2つの隣接する立方体がシードの同じ部分を包含する場合、その内側の立方体は、サーチすることなく上記同じ部分を簡単に所得できる、というものである。第2に、基本的にはマルチ解像度アプローチが使用される、つまり、まず粗い解像度の最適立方体をサーチし、次にその立方体を微細な解像度にリファインする。粗い解像度の空間のサイズは、微細な解像度のサイズよりも格段に小さいため、極めて多くの演算を省くことができる。例えば、グリッド(i、j)が粗い解像度レベルで選択されたとき、次に、その9つの近隣値、つまり、(2i−1、2j−1)から(2i+1、2j+1)が、図11に示される微細な解像度レベルにおいて探索される。] 図11
[0112] 空間的関係として、予め発見したものに基づく空間サーチについても制限を加える。例えば、図12に示されるオーバーラップグリッド(i、j)をサーチするとき、最適インデックス情報の近隣の(予め発見している)組を用いてシード空間に制限を加える。] 図12
[0113] 最後に、テクスチャ距離を演算するときには、ブロック変換領域が用いられる。そして、上記複雑さを軽減するために上記距離を演算するときに、幾つかの最大振幅係数のみに配慮する。これは、画像中の幾つかの主成分を抽出することがブロック変換において許容されるという前提のもと、一般的な主成分分析法(PCA; principal component analysis)に類似している。次元縮小によるそういった近似が出力品質をそれほど劣化させることはない。]
[0114] 次に、図13を参照して説明する。図13は、デコーダ装置1326内の特定の構成部材を説明するための図であり、デコーダ装置1326は、本開示内容にしたがう、サイド情報を用いた動画像符号化のためのテクスチャ合成を行うために構成されている。] 図13
[0115] デコーダ装置1326は、プロセッサ1334を含む。プロセッサ1334は、一般的な用途に用いられる、シングルまたはマルチチップマイクロプロセッサ(例えば、ARM)、あるいは、特定用途のためのマイクロプロセッサ(例えば、デジタル・シグナル・プロセッサ(DSP)、マイクロコントローラ、プログラマブル・ゲート・アレイなど)である。プロセッサ1334は、中央演算処理装置(CPU)とも称される。図13のデコーダ装置1326では1個のプロセッサ1334のみが図示されているが、他の構成として、プロセッサの組み合わせ(例えば、ARMとDSP)も可能である。] 図13
[0116] また、デコーダ装置1326は、メモリ1336を含む。メモリ1336は、電子情報を格納することが可能な、いかなる電子部品であってもよい。メモリ1336は、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、磁気ディスク記憶媒体、光学式記憶媒体、RAMにおけるフラッシュ・メモリ装置、プロセッサ内蔵の搭載メモリ、EPROMメモリ、EEPROMメモリ、レジスタ等として、または、これらの組み合わせにより実現される。]
[0117] データ1338および命令1340は、メモリ1336に格納される。プロセッサ1334は命令1340を実行することができ、それにより種々の機能が実行される。命令1340を実行するときに、メモリ1336に格納されたデータ1338が使用されうる。]
[0118] 以下、メモリ1336に格納されるデータ1338の例を挙げる。シードテクスチャ1314a、合成領域の低忠実度部1342、合成領域のマーキング1344、合成領域1320bなどである。ここで述べる技術を実行するうえで関連するデータ1338の他の種類のデータもまた、メモリ1336に含まれうる。]
[0119] 以下、メモリ1336に格納される命令1340の例を挙げる。高忠実度でのシードテクスチャ1314aの受信1346、低忠実度での合成領域の残余部1342の受信1348、合成される領域のマーキング1344の受信1350、高忠実度のシードテクスチャ1314aおよび合成領域1342の低忠実度部に基づく、マーキングされた領域の合成1352である。ここで述べる技術を実行するうえで関連する命令1340の他の種類の命令もまた、メモリ1336に含まれうる。]
[0120] また、デコーダ装置1326は、送信機1354及び受信機1356を含み、デコーダ装置1326と遠隔地との間における信号の送受信が可能である。送信機1354及び受信機1356を合わせてトランシーバ1358と称してもよい。アンテナ1360は、トランシーバ1358と電気的に結合される。また、デコーダ装置1326は、(図示しない)複数の送信機、複数の受信機、複数のトランシーバ及び/または複数のアンテナを含んでよい。]
[0121] また、デコーダ装置1326は、他装置と通信するための1以上の通信ポート1362を含む。他装置との通信は、直接及び/またはコンピュータ・ネットワークを介して行われる。通信ポート1362の例として、イーサネット(登録商標)・ポート、USB(Universal Serial Bus)、パラレルポート、シリアルポートなどが含まれる。]
[0122] また、デコーダ装置1326は、1以上の入力装置1364を含む。入力装置1364の例として、キーボード、マウス、リモートコントロール装置、マイクロフォン、ボタン、ジョイスティック、トラックボール、タッチパッド、ライトペンなどが含まれる。]
[0123] また、デコーダ装置1326は、ディスプレイ1366を含む。メモリ1336に格納されたデータ1338を、ディスプレイ1366に表示するために、テキスト、グラフィック、及び/または、(必要に応じて)動画に変換するディスプレイ・コントローラ1368が与えられうる。]
[0124] デコーダ装置1326の種々の構成部材が1以上のバスによって結合される。そのバスには、パワーバス、制御信号バス、ステータス信号バス、データバスなどが含まれる。明確性を担保するため、図13では種々のバスがバスシステム1372として図示されている。] 図13
[0125] 次に、図14を参照して説明する。図14は、エンコーダ装置1424内の特定の構成部材を説明するための図であり、エンコーダ装置1424は、本開示内容にしたがう、サイド情報を用いた動画像符号化のためのテクスチャ合成を円滑に行うために構成されている。] 図14
[0126] エンコーダ装置1424は、デコーダ装置1326との関連で上述した構成部材と類似の部材を含む。特に、エンコーダ装置1424は、プロセッサ1434、メモリ1436、メモリ1436に格納されたデータ1438及び命令1440、送信機1454及び受信機1456(これらを合わせてトランシーバ1458と称してもよい)、アンテナ1460、通信ポート1462、入力装置1464、ディスプレイ1466、ディスプレイ・コントローラ1468、及び出力装置1470などを含む。エンコーダ装置1424の種々の構成部材がバスシステム1472によって結合される。]
[0127] 以下、メモリ1436に格納されるデータ1438の例を挙げる。入力動画像1402、シードテクスチャ1414a、合成領域の低忠実度部1442、合成領域のマーキング1444などである。ここで述べる技術を実行するうえで関連するデータ1438の他の種類のデータもまた、メモリ1436に含まれうる。]
[0128] 以下、メモリ1436に格納される命令1440の例を挙げる。合成される入力動画像1402の領域を特定する旨の命令1474、シードテクスチャ1414aとしての合成領域部1442をマーキングする旨の命令1476、デコーダ装置に対して、高忠実度でシードテクスチャ1414aを伝送する旨の命令1478、デコーダ装置に対して、低忠実度で合成領域の残余部1442を伝送する旨の命令1480などである。ここで述べる技術を実行するうえで関連する命令1440の他の種類の命令もまた、メモリ1436に含まれうる。]
[0129] 上記説明において、参照番号が種々の用語との関係で使用されている場合がある。ある参照番号との関係である用語が用いられている場合には、1以上の図面に開示された特定の構成部材を参照している。参照番号を付することなくある用語が用いられている場合には、特定の図面に限定されることなく、一般的に当該用語を参照している。例えば、“デコーダ装置1326”に言及するときには、図13に開示された特定の電子機器を参照している。しかしながら、参照番号を付することなく“デコーダ装置”に言及しているときには、その用語が用いられる文脈において適切なあらゆるデコーダ装置に言及しているのであって、各図に開示される特定のデコーダ装置に限定されることはない。] 図13
[0130] ここで使用されるように、“決定(determining)”という語は、種々の動作を含み、それゆえ、“決定”は、計算、演算、処理、導出(deriving)、調査(investigating)、参照(looking up)(例えば、テーブル、データベース、または他のデータ構造の参照)、確定(ascertaining)などを含む。また、“決定”という語は、受信(例えば、情報の受信)、アクセス(例えば、メモリに格納されたデータへのアクセス)などを含む。また、“決定”という語は、解決(resolving)、選定(selecting)、選択(choosing)、確立(establishing)などを含む。]
[0131] “基づいて(based on)”という表現は、明確に述べられていない限りは、“のみに基づいて”ということを意味するものではない。言い換えると、“基づいて”という表現は、“のみに基づいて”及び“少なくとも基づいて”の両方を表現している。]
[0132] “プロセッサ”という語は、一般的な用途に用いられるプロセッサ、中央演算処理装置(CPU)、マイクロプロセッサ、デジタル・シグナル・プロセッサ(DSP)、コントローラ、マイクロコントローラ、状態機械などを含む、幅広い解釈がされるべきものである。ある状況下では、“プロセッサ”という語は、特定用途のIC(ASIC; Application specific integrated circuit)、プログラマブル可能論理回路(PLD; Programmable logic device)、フィールドプログラマブル・ゲート・アレイ(EPGA; filed programmable gate array)などを意味することもある。また、“プロセッサ”という語は、プロセス装置の組み合わせを意味することもあり、例えば、DSPとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサの組み合わせ、DSPコアと連動した1以上のマイクロプロセッサ、あるいは同様の他の構成であってよい。]
[0133] “メモリ”という語は、電子情報を格納することができるいかなる電子部品をも含む、幅広い解釈がされるべきものである。メモリという語は、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、不揮発性ランダム・アクセス・メモリ(NVRAM)、プログラマブルな読み出し専用メモリ(PROM)、消去可能PROM(EPROM)、電気的消去可能PROM(EEPROM)、フラッシュ・メモリ、磁気式/光学式データストレージ、レジスタなどの様々なプロセッサによる読み取り可能な媒体を言う。メモリは、プロセッサが当該メモリから情報の読み出し、書き込みが可能であれば、そのプロセッサと電子通信を行う。メモリは、プロセッサと統合されてもよく、また、依然として、プロセッサと電子通信を行う。]
[0134] “命令(instruction)”、“コード(code)”という語は、コンピュータ読み取り可能ないかなる状態(status)をも含むよう解釈されるべきである。例えば、“命令”、“コード”という語は、1以上のプログラム、ルーチン、サブルーチン、関数、手順などを言う。“命令”、“コード”という語は、1つのコンピュータ読み取り可能な状態、または複数のコンピュータ読み取り可能な状態を含みうる。]
[0135] ここで説明する機能は、ハードウェア、ソフトウェア、ファームウェア、あるいはこれらの組み合わせにより実行される。ソフトウェアで実行された場合、その機能は、コンピュータ読み取り可能な記憶媒体に1以上の命令として記憶される。“コンピュータ読み取り可能な記憶媒体”という語は、コンピュータによってアクセス可能な、あらゆる利用可能な記憶媒体を言う。]
[0136] 例示することを目的として、したがって限定されるものではないが、コンピュータ読み取り可能な記憶媒体は、RAM、ROM、EEPROM、CD−ROM、または他の光学式ディスク媒体、磁気式ディスク媒体、または他の磁気式記憶装置、または、コンピュータによってアクセス可能な、他の命令あるいはデータ構造の形式で所望のプログラムコードを実行・格納するために使用される他の媒体を含むものであってよい。ディスク、及びここで用いられるディスクには、コンパクトディスク(CD)、レーザーディスク、DVD(digital versatile disc)、フロッピー(登録商標)ディスク、Blu-ray(登録商標)ディスクなどが含まれる。これらのディスクは、通常、磁気的にデータを再生し、レーザーによって光学的にデータを再生する。]
[0137] また、ソフトウェアあるいは命令は、伝送媒体によって伝送される。例えば、ソフトウェアが、ウェブサイト、サーバ、あるいは他の遠隔ソースから、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL(Digital subscriber line)、または、赤外線、無線、マイクロ波などの無線技術を用いて伝送されるのであれば、そのときは、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、赤外線、無線、マイクロ波などの無線技術は、伝送媒体の定義に含まれる。]
[0138] ここで開示された方法は、上記方法を実現するための1以上のステップまたは機能(action)を含む。方法ステップ及び/又は機能は、クレームの範囲から逸脱することなく互いに置換されうる。言い換えると、上述した方法を適正に動作させるためのステップまたは機能に特定の順序が必要とされないのであれば、特定のステップ及び/又は機能の順序及び/又は使用は、クレームの範囲から逸脱することなく変更されうる。]
[0139] 実施(executing)、処理、実行(performing)、動作、決定、通知、送信、受信、記憶、要求、及び/又は他の機能は、ウェブサービスを用いた機能の実行を含みうる。ウェブサービスは、インターネットなどのコンピュータ・ネットワーク上における相互運用が可能な機械間のやり取り(interaction)をサポートするように設計されたソフトウェアサービスを含みうる。ウェブサービスは、アプリケーションまたはシステム間のデータ交換に用いられる種々のプロトコル、規格を含みうる。例えば、ウェブサービスは、メッセージング仕様、セキュリティー仕様、信頼性の高いメッセージング仕様、取引仕様、メタデータ仕様、XML仕様、管理仕様、及び/又は、ビジネスプロセス仕様などを含みうる。SOAP、WSDL、XMLなどの一般的に使用される仕様、及び/又は他の仕様が用いられる。]
[0140] 請求の範囲(クレーム)は、上述した詳細な構成および構成要素に限定されない。種々の修正点、変更点、及びバリエーションは、ここで説明した上記構成、処理、システムの詳細、方法、装置において、クレームの範囲を逸脱することなく、使用される。]
权利要求:

請求項1
デコーダ装置によって実行される、サイド情報を用いた動画像符号化のためのテクスチャ合成方法であって、高忠実度でシードテクスチャを受信する第1受信ステップと、低忠実度で合成領域の残余部を受信する第2受信ステップと、合成する領域のマーキングを受信する第3受信ステップと、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、を含むことを特徴とするテクスチャ合成方法。
請求項2
上記合成ステップは、上記シードテクスチャ内において少なくとも1つの最適領域を特定する特定ステップと、初期推定値を取得する取得ステップと、上記少なくとも1つの最適領域から画像モデルを導出する導出ステップと、受信したビットストリームから付加的な画像モデルを抽出する抽出ステップと、上記初期推定値と導出した上記画像モデルおよび抽出した上記画像モデルとに基づいて、現合成領域を合成する合成ステップと、を含むことを特徴とする請求項1に記載のテクスチャ合成方法。
請求項3
上記取得ステップは、最適領域のピクセル値を現合成領域のピクセル値に複写する複写ステップを含むことを特徴とする請求項2に記載のテクスチャ合成方法。
請求項4
上記特定ステップは、複数の最適領域を特定するとともに、さらに、マーキングされた上記領域を合成するために、上記複数の最適領域の加重組み合わせを使用する使用ステップを含むことを特徴とする請求項2に記載のテクスチャ合成方法。
請求項5
伝送された上記画像モデルは、量子化パラメータ、量子化されたレベル値、及び予測モードのうち少なくとも1つを含むことを特徴とする請求項2に記載のテクスチャ合成方法。
請求項6
上記現合成領域の合成は、上記受信したビットストリームから抽出される画像モデルと、上記シードテクスチャから抽出される画像モデルとに反復射影することによって実行されることを特徴とする請求項2に記載のテクスチャ合成方法。
請求項7
上記シードテクスチャから抽出される上記画像モデルは、自己相関であり、反復射影を動作させるための射影演算子は、所望の相関モデルに対する線形マッピングであることを特徴とする請求項6に記載のテクスチャ合成方法。
請求項8
上記シードテクスチャから抽出される上記画像モデルは、変換領域におけるスパースネスであり、反復射影を動作させるための射影演算子は、所望のスパースネスに達するための閾値処理であることを特徴とする請求項6に記載のテクスチャ合成方法。
請求項9
さらに、境界部の平滑化を実行するために、パッチ混合および非ブロック化を実行する実行ステップを含むことを特徴とする請求項2に記載のテクスチャ合成方法。
請求項10
導出された上記画像モデルおよび伝送された異なるタイプの複数の画像モデルは、少なくとも、時空間相関関係に基づくモデル、ピクセル輝度値のヒストグラムに基づくモデル、変換係数のヒストグラムに基づくモデル、及び、変換領域における相関関係に基づくモデル、の何れかを含むことを特徴とする請求項2に記載のテクスチャ合成方法。
請求項11
マーキングされた上記領域を合成する合成ステップは、上記シードテクスチャ内において少なくとも1つの最適領域を特定する特定ステップと、上記少なくとも1つの最適領域と現合成領域との間の差を示すテクスチャ類似性メトリックを規定する第1規定ステップと、上記サイド情報と上記現合成領域との間の差を示すサイド情報メトリックを規定する第2規定ステップと、上記テクスチャ類似性メトリック及び上記サイド情報メトリックの組み合わせを最小化する最小化ステップと、を含むことを特徴とする請求項1に記載のテクスチャ合成方法。
請求項12
上記サイド情報メトリックは、上記変換領域における射影によって最近点を発見することにより決定されることを特徴とする請求項11に記載のテクスチャ合成方法。
請求項13
ブロック処理が実行されるとともに、ある特定ブロックの合成動作は、(1)近接する、因果関係を有するブロック、及び(2)すべての近接ブロック、の何れかに関する合成結果を認識することにより実行されることを特徴とする請求項11に記載のテクスチャ合成方法。
請求項14
マーキングされた上記領域を合成する合成ステップの動作は、マーキングされた上記領域に対する因果テクスチャ合成を実行する実行ステップと、続いて行われる、マーキングされた上記領域を因果関係とは無関係に処理する処理ステップと、を含むことを特徴とする請求項11に記載のテクスチャ合成方法。
請求項15
さらに、オーバーラップしないグリッドをサーチするサーチステップ、空間とマルチ解像度との関係を利用してサーチ空間を縮減する縮減ステップ、及び、距離を計算するときに数量を減らした変換係数を使用する使用ステップ、のうち、少なくとも何れか1つのステップを実行することにより計算上の複雑さを軽減する軽減ステップを含むことを特徴とする請求項1に記載のテクスチャ合成方法。
請求項16
サイド情報を用いた動画像符号化のためのテクスチャ合成を行うためのデコーダ装置であって、プロセッサと、上記プロセッサと電子通信を行うメモリと、上記メモリに格納された命令と、を有し、上記命令は、高忠実度でのシードテクスチャの受信、低忠実度での合成領域の残余部の受信、合成する領域のマーキングの受信、及び、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づく、マーキングされた上記領域の合成、を実行させうることを特徴とするデコーダ装置。
請求項17
マーキングされた上記領域の合成は、上記シードテクスチャ内における少なくとも1つの最適領域の特定と、初期推定値の取得と、上記少なくとも1つの最適領域からの画像モデルの導出と、受信したビットストリームからの付加的な画像モデルの抽出と、上記初期推定値と上記導出した上記画像モデルおよび上記抽出した上記画像モデルとに基づく現合成領域の合成と、を含むことを特徴とする請求項16に記載のデコーダ装置。
請求項18
上記現合成領域の合成は、上記受信したビットストリームから抽出される画像モデルと、上記シードテクスチャから抽出される画像モデルとに反復射影することによって実行されることを特徴とする請求項17に記載のデコーダ装置。
請求項19
マーキングされた上記領域の合成は、上記シードテクスチャ内における少なくとも1つの最適領域の特定と、上記少なくとも1つの最適領域と現合成領域との間の差を示すテクスチャ類似性メトリックの規定と、上記サイド情報と上記現合成領域との間の差を示すサイド情報メトリックの規定と、上記テクスチャ類似性メトリック及び上記サイド情報メトリックの組み合わせの最小化と、を含むことを特徴とする請求項16に記載のデコーダ装置。
請求項20
サイド情報を用いた動画像符号化のためのテクスチャ合成を促進するエンコーダ装置であって、プロセッサと、上記プロセッサと電子通信を行うメモリと、上記メモリに格納された命令と、を有し、上記命令は、入力動画像の合成領域の特定、シードテクスチャとしての合成領域部のマーキング、デコーダ装置に対する、高忠実度での上記シードテクスチャの伝送、上記デコーダ装置に対する、低忠実度での上記合成領域部の残余部の伝送、を実行させうることを特徴とするエンコーダ装置。
請求項21
高忠実度でシードテクスチャを受信する第1受信ステップと、低忠実度で合成領域の残余部を受信する第2受信ステップと、合成する領域のマーキングを受信する第3受信ステップと、高忠実度の上記シードテクスチャ及び低忠実度の上記合成領域の上記残余部に基づいて、マーキングされた上記領域を合成する合成ステップと、をコンピュータに実行させるためのプログラム。
請求項22
請求項21に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
請求項23
エンコーダ装置によって実行される、サイド情報を用いた動画像符号化のためのテクスチャ合成を促進する方法であって、入力動画像の合成領域を特定する特定ステップと、シードテクスチャとしての合成領域部をマーキングするマーキングステップと、デコーダ装置に対して、高忠実度で上記シードテクスチャを伝送する第1伝送ステップと、上記デコーダ装置に対して、低忠実度で上記合成領域部の残余部を伝送する第2伝送ステップと、を含むことを特徴とする方法。
請求項24
さらに、テクスチャの異なる領域のために、上記デコーダ装置に対して、異なる量の上記サイド情報を送信する送信ステップを含むことを特徴とする請求項23に記載の方法。
类似技术:
公开号 | 公开日 | 专利标题
US20170310968A1|2017-10-26|Processing of motion information in multidimensional signals through motion zones and auxiliary information through auxiliary zones
Maglo et al.2015|3d mesh compression: Survey, comparisons, and emerging trends
Khan et al.2014|A recent survey of reversible watermarking techniques
US10284847B2|2019-05-07|Image predictive encoding and decoding device
US9736455B2|2017-08-15|Method and apparatus for downscaling depth data for view plus depth data compression
US9280825B2|2016-03-08|Image processing system with registration mechanism and method of operation thereof
US8885941B2|2014-11-11|System and method for estimating spatially varying defocus blur in a digital image
Kwon et al.2015|Efficient learning of image super-resolution and compression artifact removal with semi-local Gaussian processes
US20150189318A1|2015-07-02|Feature-Based Video Compression
US8374456B2|2013-02-12|Method for synthesizing a virtual image from a reduced resolution depth image
Ružić et al.2014|Context-aware patch-based image inpainting using Markov random field modeling
US8818082B2|2014-08-26|Classifying blur state of digital image pixels
Kumar et al.2018|A recent survey on image watermarking techniques and its application in e-governance
Liu et al.2018|Parallel fractal compression method for big video data
US20170214943A1|2017-07-27|Point Cloud Compression using Prediction and Shape-Adaptive Transforms
US8983178B2|2015-03-17|Apparatus and method for performing segment-based disparity decomposition
US7447337B2|2008-11-04|Video content understanding through real time video motion analysis
JP6031464B2|2016-11-24|並列追跡及びマッピングのためのキーフレーム選択
CN102282838B|2014-07-09|针对多次曝光的增强动态范围图像和视频的方法和系统
DE69831961T2|2006-07-27|Bildobjekterzeugungsverfahren für objektbasierte kodierungssysteme unter verwendung von maskenund gerundeten mittelwerten
CN101257632B|2011-12-14|用于非线性的多运动模型和移动边界提取的方法和设备
US6115503A|2000-09-05|Method and apparatus for reducing coding artifacts of block-based image encoding and object-based image encoding
JP5341095B2|2013-11-13|メディア・コンテンツに信頼性よく対応するメディア・フィンガープリント
US9036933B2|2015-05-19|Image encoding method and apparatus, image decoding method and apparatus, and programs therefor
US8270752B2|2012-09-18|Depth reconstruction filter for depth coding videos
同族专利:
公开号 | 公开日
CN101911703B|2012-09-26|
US20090185747A1|2009-07-23|
US8204325B2|2012-06-19|
CN101911703A|2010-12-08|
WO2009091080A1|2009-07-23|
引用文献:
公开号 | 申请日 | 公开日 | 申请人 | 专利标题
JP2006519533A|2003-02-28|2006-08-24|フラウンホッファー−ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー.ファオ|ビデオコーディングがテクスチャ解析およびテクスチャ合成を含むビデオコーディングのための方法およびアセンブリと、対応するコンピュータプログラムおよび対応するコンピュータで読み込み可能な記録媒体|JP2013009262A|2011-06-27|2013-01-10|Nippon Telegr & Teleph Corp <Ntt>|画像復号装置、画像復号方法及び画像復号プログラム|
JP2014180043A|2014-05-28|2014-09-25|Thomson Licensing|パッチベースのサンプリングテクスチャ合成を用いたテクスチャ圧縮の方法及び装置|
JP2017216698A|2013-10-11|2017-12-07|テレフオンアクチーボラゲット エルエム エリクソン(パブル)|Method and arrangement for transcoding a video bitstream|DE69228983T2|1991-12-18|1999-10-28|Koninkl Philips Electronics Nv|System zum Übertragen und/oder Speichern von Signalen von texturierten Bildern|
US5974186A|1995-10-24|1999-10-26|Georgia Tech Research Corporation|Video coding system and method for noisy signals|
US7606435B1|2002-02-21|2009-10-20|At&T Intellectual Property Ii, L.P.|System and method for encoding and decoding using texture replacement|
US7184602B2|2003-05-02|2007-02-27|Microsoft Corp.|System and method for low bandwidth video streaming for face-to-face teleconferencing|
CN1256707C|2004-05-09|2006-05-17|北京航空航天大学|基于多样图的纹理合成方法|
CN101223787A|2005-07-15|2008-07-16|皇家飞利浦电子股份有限公司|针对纹理区域的图像编码器|
US8155184B2|2008-01-16|2012-04-10|Sony Corporation|Video coding system using texture analysis and synthesis in a scalable coding framework|KR20130006537A|2006-04-28|2013-01-16|가부시키가이샤 엔티티 도코모|화상 예측 부호화 장치, 화상 예측 부호화 방법, 화상 예측 부호화 프로그램, 화상 예측 복호 장치, 화상 예측 복호 방법 및 화상 예측 복호 프로그램|
KR101381600B1|2006-12-20|2014-04-04|삼성전자주식회사|텍스처 합성을 이용한 영상의 부호화, 복호화 방법 및 장치|
BRPI0822815A2|2008-06-27|2015-06-30|Thomson Licensing|Método e aparelho para compressão de textura utilizando síntese de textura de amostragem baseada em patch|
JP5911809B2|2010-01-22|2016-04-27|トムソン ライセンシングThomson Licensing|サンプリングベースの超解像度ビデオ符号化および復号化方法並びに装置|
JP5805665B2|2010-01-22|2015-11-04|トムソン ライセンシングThomson Licensing|Data pruning for video compression using Example-based super-resolution|
JP5351093B2|2010-06-01|2013-11-27|日本電信電話株式会社|画像符号化方法,画像符号化装置および画像符号化プログラム|
JP5351094B2|2010-06-01|2013-11-27|日本電信電話株式会社|画像符号化方法,画像符号化装置および画像符号化プログラム|
US8842738B2|2010-09-01|2014-09-23|Electronics And Telecommunications Research Institute|Signal processing method and apparatus based on multiple textures using video audio excitation signals|
US8848800B2|2010-09-01|2014-09-30|Electronics And Telecommunications Research Institute|Signal processing method and apparatus based on multiple textures using video sensor excitation signals|
KR101527369B1|2010-09-01|2015-06-09|한국전자통신연구원|영상오디오여기신호를 이용한 다중 텍스쳐 기반 신호 처리 방법 및 장치|
US8831094B2|2010-09-01|2014-09-09|Electronics And Telecommunications Research Institute|Video processing method and apparatus based on multiple texture images|
BR112013005316A2|2010-09-10|2016-08-16|Thomson Licensing|codificação de vídeo empregando triagem de dados com resolução baseada em mistura de blocos|
US9544598B2|2010-09-10|2017-01-10|Thomson Licensing|Methods and apparatus for pruning decision optimization in example-based data pruning compression|
US20130170564A1|2010-09-10|2013-07-04|Thomson Licensing|Encoding of a picture in a video sequence by example-based data pruning using intra-frame patch similarity|
EP2646984B1|2010-11-29|2018-04-11|Thomson Licensing|Method and device for reconstructing a self-similar textured region of an image|
GB2491688B|2011-05-05|2014-08-27|Advanced Risc Mach Ltd|Method of and apparatus for encoding and decoding data|
CN102779277A|2012-06-08|2012-11-14|中山大学|一种基于图像处理中的主纹理提取方法|
US9177415B2|2013-01-30|2015-11-03|Arm Limited|Methods of and apparatus for encoding and decoding data|
US9510787B2|2014-12-11|2016-12-06|Mitsubishi Electric Research Laboratories, Inc.|Method and system for reconstructing sampled signals|
EP3291780A4|2015-04-20|2019-01-23|Cornell University|Machine vision with dimensional data reduction|
US9852523B2|2016-02-24|2017-12-26|Ondrej Jamri{hacek over }ka|Appearance transfer techniques maintaining temporal coherence|
US9870638B2|2016-02-24|2018-01-16|Ondrej Jamri{hacek over }ka|Appearance transfer techniques|
US10198839B2|2016-09-22|2019-02-05|Apple Inc.|Style transfer-based image content correction|
US10147459B2|2016-09-22|2018-12-04|Apple Inc.|Artistic style transfer for videos|
US10664718B1|2017-09-11|2020-05-26|Apple Inc.|Real-time adjustment of hybrid DNN style transfer networks|
法律状态:
2013-03-13| A131| Notification of reasons for refusal|Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130312 |
2013-07-03| A02| Decision of refusal|Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130702 |
优先权:
申请号 | 申请日 | 专利标题
[返回顶部]